查看原文
其他

干货 | 古汉语AI大模型,来了!

爱分享的 语言服务
2024-09-04
点击上方“语言服务” 可以订阅



AI太炎:以智能技术    探文言奥妙

致敬先贤,以AI智慧贯古今。

助力学人,于万卷典籍探奥妙。


ChatGPT、GPT-4等大语言模型展现出非凡的语言理解和生成能力,然而,当它们遇到古汉语的深奥之处,由于缺乏专业知识,仍会产生不少令人捧腹又值得深思的错误。



语言+文化:

双重挑战


古代汉语的文言表达绵延千年,其文字、词汇、语法、语音系统不断发展,每个时期都产生了复杂的语言现象,给后人的阅读理解带来了诸多障碍。除了语言层面的问题,对古汉语文本的理解还需依赖文本之外的历史文化常识——古人对人、事的指称常有多种变体,且表述追求含蓄蕴藉,常化用典故表达情感或思想。



语言与文化的双重挑战,不仅为现代人学习和阅读文言文带来了困难,也是当前我国古籍整理工作和古汉语信息处理研究中的重难点所在。



古汉语AI大模型,

来了!


近日,北京师范大学汉字汉语研究与社会应用实验室数字人文系的研究者们构建了专门适用于古汉语文本理解的大语言模型。该模型具有较强的古典文献释读能力,支持字词释义、文白翻译、句读标点、用典分析等多种具有挑战性的文言文理解任务,且兼容简体和繁体中文输入。



为了致敬近代国学大师章太炎先生,秉承章黄学派弘扬中华优秀传统文化的宗旨,该模型命名为“AI太炎”。


AI太炎的基础语言能力来源于阅读海量的古代汉语+现代汉语文本语料,进一步地,在专家的设计和引导下,TA正在专门学习古代汉语中字词、句段、语篇层面的语言知识和历史文化常识。


让我们来看看现在TA能做什么吧?


01

能够结合语境,对词的意义甚至特殊用法进行准确注释,并输出流畅的译文。


“矢”是什么含义?


TA不仅识别出“三遗矢”中的通假现象,还正确理解了“臣”的指代用法!


02

除了语言能力,TA也颇具“文化水平”。当文本涉及历史文化常识时,哪怕面对并非常见或浅易的古文,它也可进行较为准确地判断。


人物别称的识别。

(例句出自柳亚子《磨剑室文录》)


较为罕见的官职名识别。

(出自[清]孙奇逢《夏峰先生集》)


03

对于古人含蓄蕴藉的用典现象,TA同样可以大显身手、识别典故背后的含义哟!


典故识别。

(出自[清]吕留良《宋诗钞序》)


识别多处用典。

(出自[唐]张九龄《眉州康司马挽歌词》)


04

TA还可以进行高精度的句读标点!


句读标点。

(出自[宋]沈括《梦溪笔谈》)



值得一提的是,文白翻译是最具挑战性的任务。因为,在翻译文段时,模型需要综合运用词汇、句法及相应的文化知识,传达言内和言外之意,如下例所示。


文白翻译。

(出自[元]辛文房《唐才子传》)


(1) 在背景知识方面,模型将“山东”翻译为“崤山东”,并解释了为何梦见长庚星要取名为李白。


(2) 在语法方面,补充了省略的主语,并注重古今连词差异(如将“因”翻译为“于是”),使得句子衔接更加自然。


(3) 在词汇方面,模型未受现代汉语双音节词影响,准确译出了“天才”的含义。


注:在均衡采样的外部测试集上, 该模型的机器翻译BLEU值(衡量机器译文与参考译文一致性的指标)大大超过了通用大语言模型和专用文白机器翻译系统。



开启

内测


作为一个计算模型,虽然AI太炎已展现出一定的文言理解能力,但TA仍然是一位处于襁褓之中的“AI婴儿”,有很多待学习和改进之处。先贤的渊博学识、深邃思想将激励研发团队持续地迭代优化,使其未来更好地服务于现代人阅读和学习古诗文,以及整理和研究古文献。


如果您看好古汉语AI的潜力,迫不及待想要尝试体验;


如果您希望亲自为它“出题”,评估其能力和潜力;


如果您计划在学习和工作中引入这位AI助手,并乐于分享您宝贵的反馈与建议;


欢迎扫码填写信息,我们将邀请您加入AI太炎内测,共同致力于新一代古汉语AI研究,探寻科技与文化的交融之美!


内测地址:https://t.shenshen.wiki/ 

扫码报名参加内测


研发团队主要成员:李绅、胡韧奋、王立军


联系方式:shen@mail.bnu.edu.cn


致谢:本研究受到国家语委重大项目“古籍整理智能化关键技术研究”(ZDA145-9)资助,北京师范大学莫凯洁、丘子靓、王予沛、王兆基、张诗睿、杨浩宇等同学参与了前期资源建设和模型评测工作,孟琢、董婧宸、李聪、诸雨辰、张学涛、张雨、张祎昀等师友为模型研究及应用提出了宝贵的建议。


特别鸣谢

敦和基金会


本文来源:章黄国学



科研干货


干货 | 最新版Z-library官方客户端和最新地址

干货 | 比Z-library更好使的文献搜索神器——安娜的档案

重磅 | 在线自主申领!中国知网学位论文稿酬领取更快捷啦(附网址)

干货 | 中国语言文字数字博物馆移动端“语博”App正式上线

干货 | 新国标《学术论文编写规则》发布(附下载方式)

干货 | 夹用英文的中文文本的标点符号用法(附电子版下载)

干货 | 国家标准:公共服务领域英文译写规范(附电子版下载)

重磅 | 最新版北大核心期刊目录及投稿方式大全(语言学)

重磅 | CSSCI(2021-2022)来源期刊(含扩展版)投稿方式大全(语言学)

干货 | 国际中文教育研究刊物集锦(含刊物简介及投稿方式)

重磅 | 2021版语言学类SSCI期刊名单出炉(附excel版下载)

干货 | 超实用的学术论文英语句式大全(附PDF格式下载)

干货 | 如何快速从全世界语料中找到你想要的句子?

干货 | 这个神器可以获取海量资源,写论文做课题必备

干货 | 英语教学及论文写作必备的12个语法检测工具

干货 | 中国知网的这两项功能悄悄更新,造福了万千研究生

干货 | 知网检索系统更新了,这些新功能,你get到了吗?

干货 | 知网技巧:如何在知网查询外文文献

干货丨这30个网站可以免费获取英文电子书和文献资源

干货 | 6本经典英英词典免费电子资源包(内附安装教程)

干货 | 50个常用学术网站及使用指南

干货 | 全球免费数字图书馆资源大全!

干货 | 北京大学CCL语言田野调查及分析系统(附下载链接)

干货 | 全球汉语传播动态数据库正式开放(附网址)

干货 | “了不起的甲骨文”小程序最全攻略

干货 | 语言研究必备的37个常用语料库

干货 | 国家语言资源服务平台正式上线

干货 | 故宫博物院藏古文字数字平台上线(附网址)

干货 | 汉语方言语法特征语料库上线(附网址)

干货 | AI中文教育资源网上线(附网址)

干货 | 古汉语通假字资源库上线(附网址)

干货 | 100款人文社科领域的学术科研工具大汇总

干货 | 推荐收藏!130个学术网站和26个科研工具

干货 | 推荐收藏!20个实用的语言文字检索数据库

干货 | 推荐收藏!40个容易贬义褒用的词语

干货 | 推荐收藏!230个常见错别字词

干货 | 教师必备的10个教学资源网站

干货 | 做科研最忌讳什么:以语言学研究为例

干货 | 新华社公布102个禁用词,三思而后言(附word版下载)

干货 | 不做“标题党”,语言类公众号推文标题如何出奇出新?

干货 | 百度文心一言向全社会开放

干货 | 中文古籍有多少家底?这个平台聚齐1400余家机构馆藏目录


语言服务资源共享



学术资讯分享

学术资源共享

学术交流共进

还有实用干货和更多福利

尽在语言服务资源共享群

欢迎加入


在【语言服务】公众号对话框

回复“资源共享

获取进群方式


语言服务

19万+语言学人已关注

ID:Language-service

投稿邮箱:yuyanfuwu@yeah.net

投稿交流、商务合作、著作出版

请联系语服君

微信号:yuyanfuwu2023

点击阅读原文

获取更多实用干货


今天有“在看”我吗?
继续滑动看下一个
语言服务
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存